23.4 제어 정책의 직접 최적화 (End-to-End Policy Optimization)